在包括在线广告,合同招聘和无线调度的各种应用中,控制器受到可用资源的严格预算约束的限制,这些资源由每个动作以随机量消耗,以及可能施加的随机可行性约束关于决策的重要运作限制。在这项工作中,我们考虑一个常规模型来解决这些问题,每个行动都返回一个随机奖励,成本和罚款从未知的联合分配返回,决策者旨在最大限度地提高预算约束下的总奖励$ B $在总成本和随机限制的时间平均罚款。我们提出了一种基于Lyapunov优化方法的新型低复杂性算法,命名为$ {\ tt lyon} $,并证明它以$ k $武器实现$ o(\ sqrt {kb \ log b})$后悔和零约束 - 当$ B $足够大时。 $ {\ tt lyon} $的计算成本和尖锐性能界限表明,基于Lyapunov的算法设计方法可以有效地解决受约束的强盗优化问题。
translated by 谷歌翻译